案例用到的测试数据请参考文章:Flink自定义Source模拟数据流原文链接:https://blog.csdn.net/m0_52606060/article/details/135436048Flink中的状态概述有状态的算子状态的分类托管状态(ManagedState)和原始状态(RawState)Flink的状态有两种:托管状态(ManagedState)和原始状态(RawState)。托管状态就是由Flink统一管理的,状态的存储访问、故障恢复和重组等一系列问题都由Flink实现,我们只要调接口就可以;而原始状态则是自定义的,相当于就是开辟了一块内存,需要我们自己管理,实现状态的序列
案例用到的测试数据请参考文章:Flink自定义Source模拟数据流原文链接:https://blog.csdn.net/m0_52606060/article/details/135436048窗口的概念Flink是一种流式计算引擎,主要是来处理无界数据流的,数据源源不断、无穷无尽。想要更加方便高效地处理无界流,一种方式就是将无限数据切割成有限的“数据块”进行处理,这就是所谓的“窗口”(Window)。注意:Flink中窗口并不是静态准备好的,而是动态创建——当有落在这个窗口区间范围的数据达到时,才创建对应的窗口。另外,这里我们认为到达窗口结束时间时,窗口就触发计算并关闭,事实上“触发计算”
1.flinkcdc数据采集代码:背景使用flinkcdc采集mysql数据到kafka,经过长达两个月的各种调试,终于把调试后的版本给写出来了,进行的全量加增量的数据采集,并写了一个窗口,每隔10min中更新一次每张表同步到的数据量,使用FlinkAPI代码实现组件版本:flink:flink-1.13.6-bin-scala_2.12flinkcdc2.2.1mysql:5.7kafka:kafka_2.12-3.0.0依赖?xmlversion="1.0"encoding="UTF-8"?>projectxmlns="http://maven.apache.org/POM/4.0.0"x